1
UX, 보안, 그리고 생성형 AI의 수명주기 기초
AI011Lesson 5
00:00

신뢰할 수 있는 생성형 AI를 구축하려면 사용자 경험, 강력한 보안, 그리고 특수한 운영 수명주기인 LLMOps을 균형 있게 조화시켜야 합니다.

1. 신뢰의 사용자 경험

AI 인터페이스를 설계할 때는 네 가지 UX 핵심 요소인 사용성, 신뢰성, 접근성, 쾌적함을 균형 있게 조화시켜야 합니다. 궁극적인 목표는 신뢰 균형을 달성하는 것입니다:

  • 불신: 사용자가 성능 부족이나 투명성 부족으로 시스템을 거부할 때 발생합니다.
  • 과도한 신뢰: 사용자가 AI의 인간처럼 보이는 것에 대해 과도한 기대를 갖고, 출력 내용을 검증하지 않을 때 발생합니다.

이를 해결하기 위해 설명 가능성—AI가 특정 출력을 어떻게 생성하는지에 대한 투명성을 제공하는 것—은 두 극단 모두를 완화하는 데 필수적입니다.

2. AI 보안 및 취약점

생성형 AI는 전통적인 사이버보안 프레임워크가 적응해야 할 고유한 보안 위협을 도입합니다 (예: LLM용 MITRE ATLAS 또는 OWASP Top 10 활용 등):

  • 데이터 오염: 학습 또는 검색 데이터를 조작하여 모델의 무결성을 해치는 행위 (예: 레이블 뒤집기, 특징 오염, 데이터 삽입 등).
  • 프롬프트 주입: 사용자 입력을 악의적으로 조작하여 안전 장벽을 우회하고, 모델이 승인되지 않은 지시사항을 실행하도록 유도하는 행위.

3. LLMOps 수명주기

생성형 AI 애플리케이션을 관리하기 위해서는 특수한 운영 프로세스가 필요합니다:

  • 아이디어 도출: PromptFlow 같은 도구를 사용해 빠르게 프로토타이핑하고 가설을 검증하는 작업.
  • 구축: 모델을 개선하기 위해 검색 증강 생성 (RAG) 또는 정밀 조정을 통해 모델을 검증된 데이터와 연결하는 작업.
  • 운영화: 정확성(진실성) 및 지연 시간과 같은 지표를 지속적으로 모니터링하는 작업. 예를 들어, 정확성은 $G = \frac{\text{확인된 사실}}{\text{총 주장 수}}$로 표현할 수 있습니다.
교육적 마찰
UI에 의도적으로 '마찰'을 설계함(예: 면책 조항 또는 필수 확인 단계)하여 사용자가 AI와 상호작용하고 있음을 상기시키며, 기대를 관리하고 과도한 신뢰를 줄이는 데 도움이 됩니다.
llm_ops_monitor.py
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>
Question 1
What is the primary risk of "Overtrust" in a Generative AI system?
Users reject the system due to poor performance.
Users have unrealistic expectations and fail to verify AI limitations.
The system experiences slower latency during generation.
Hackers can easily inject malicious prompts.
Question 2
Which security threat involves compromising the training or retrieval data to trigger specific model failures?
Prompt Injection
Data Poisoning
Hallucination
Instructional Friction
Challenge: Medical AI Assistant
Apply UX and Security principles to a high-stakes scenario.
You are designing an AI assistant for a medical firm. You must ensure the data is safe and the user knows the AI's limits.
Task 1
Implement a design element to reduce overtrust.
Solution:
Add a disclaimer or "Instructional Friction" that requires the user to acknowledge the AI can hallucinate and that outputs should be verified by a medical professional.
Task 2
Define a metric to measure if the AI is making up facts.
Solution:
Implement a "Groundedness" or "Honesty" metric to compare the AI's outputs strictly against a verified medical knowledge base (e.g., using RAG).